تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی
نویسندگان
چکیده مقاله:
مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرفی میگردد. الگوریتم مذکور از ترکیب الگوریتم یادگیری سارسا با شبکه عصبیRBF به عنوان یک تقریب زننده ی تابعی حاصل شده است و ما آن را "یادگیری سارسای عصبی" (NSL) می نامیم. ورودی های شبکه جفت حالت و عمل های مسأله و خروجی آن تابع ارزش عمل تقریب زده شده می باشد. وزن های شبکه به صورت بر خط با توجه به الگوریتم ارائه شده تنظیم میگردند. به عنوان یک شرط لازم همگرایی ما همچنین وجود نقاط ایستای منطبق بر نقاط ثابت الگوریتم "تکرار تقریب ارزش عمل" برای NSLرا اثبات می نماییم. نتایج شبیه سازی ارائه شده در مورد مسائل خودرو در کوهستان و آکروبات حاکی از عملکرد مناسب تر روش ارائه شده از لحاظ سرعت آموزش و کیفیت عملکرد میباشد.
منابع مشابه
مدلسازی جریان سیال با استفاده از روش بدون شبکه محلی پترو-گلرگین بر پایه تابع شعاعی
در این مطالعه ابتدا به معرفی کامل روش بدون شبکه محلی پترو-گلرکین بر پایه تابع شعاعی پرداخته میشود. در این راستا با استخراج انواع معادلات جریان سیال شامل حرکت آب در خاک، کانال جریان و شکست سد سعی شده است با استفاده از مبانی ریاضی روش بدون شبکه، معادلات جریان رابطهسازی شود. نتایج نشان میدهد روش باقیمانده وزنی به عنوان یک روش دقیق و بهروز برای دستیابی به پاسخهای تقریبی معادلههای دیفرانسی...
متن کاملپیش بینی تراز آب زیرزمینی دشت شاهرود استفاده از شبکه عصبی مصنوعی تابع پایه شعاعی
Groundwater level prediction is an important issue in scheduling and managing water resources. A number of approaches such as stochastic, fuzzy networks and artificial neural network have been used for such prediction. A neural network model has been employed in this research for Shahrood plain groundwater level prediction. For this reason, statistical parameters of groundwater level fluct...
متن کاملساختارعصبی تقریب تابع مبتنی بر dignet برای یادگیری تقویتی
یادگیری تقویتی عبارت است از قالب بندی یک مسئله به فرم یادگیری از طریق تعامل برای رسیدن به هدف. زمانی که فضای حالات و یا کنش ها پیوسته و یا خیلی بزرگ شود استفاده از عناصر حافظه برای نگه داری ارزش حالات بسیار زیاد خواهد شد. این مسئله در رابطه با زمانی که در طول یادگیری ارزش کنش ها به دست آورده می شود، بحرانی تر خواهد شد. علاوه بر حافظه مصرفی مسئله ، داده و زمان لازم برای پر کردن آنها نیز مهم است....
15 صفحه اولمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 5 شماره 1
صفحات 50- 63
تاریخ انتشار 2011-06
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
کلمات کلیدی برای این مقاله ارائه نشده است
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023